Identification de documents par classification monoclasse
نویسندگان
چکیده
RÉSUMÉ. Utilisée dans un contexte industriel, la classification d’images de documents nécessite le respect de certaines contraintes; par exemple, être confronté à une grande variabilité des documents et/ou du nombre de classes. Dans cet article, nous répondons à ce problème en présentant une nouvelle approche basée sur la spécialisation du vecteur de caractéristiques et d’un classificateur pour chaque classe, contrairement à la majorité des méthodes qui traitent l’ensemble des classes. Cette approche permet alors d’introduire de nouvelles classes sans contraindre le système à un nouvel apprentissage. Pour cela, nous calculons un vecteur de caractéristiques générique qui sera ensuite spécialisé en classant les caractéristiques selon un score de stabilité. Finalement, un classificateur monoclasse de type K plus proche voisins est entrainé en utilisant ce vecteur. Les expérimentations menées révèlent de bons taux de classification prouvant une adaptabilité de notre système sur des problèmes complexes.
منابع مشابه
La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires
Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...
متن کاملClassification de documents XML à partir d'une représentation linéaire des arbres de ces documents
Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuit...
متن کاملContribution à la classification d'images satellitaires par approche variationnelle et équations aux dérivées partielles
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملClassification de documents Amélioration de la co-similarité pour la classification de documents
La classification conjointe d’objets et de leur descripteurs – par exemple de documents avec les mots les composant – encore appelée co-classification, a été largement étudiée ces dernières années, car elle permet d’extraire des classes plus pertinents, qu’elle soit explicite ou latente. Dans de précédents travaux (Bisson & Hussain, 2008), nous avons proposé une méthode de calcul simultané des ...
متن کاملRegroupements non-disjoints de mots pour la classification de documents
RÉSUMÉ. La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article,...
متن کامل